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@ Verfahren zum Betrieb einer Datenverarbeitungseinrichtung 

(§) Verfahren zum Betrieb einer Datenverarbeitungseinrich- 
tung mit programmier- und konftgurier barer Zelistruktur, 
wobei die Datenverarbeitungseinrichtung eine Zeltmatrfac aus 
einer Vielzahl orthogonal zueinander angeordneter, homo- 
gen strukturierter Zellen, wefche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei programmierbar sind, 
enthilt, dadurch gekennzeichnet daS 

a) ein Konfigurationsprogramm, bestehend aus einer Folge 
von Ladelogik-Befehlen, die jeweils die Funktion und Vernet- 
zung der einzelnen Zellen angeben, so daS sich aus einer Teil 
folge efne spezielle Konfiguration mit spezfeller(en) Anwen- 
dung(en) ergibt, vorhanden ist, auf das die Ladelogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 

b) zunachst durch eine bestimmte Anzahi von Ladeiogik-Be- 
fehlen eine Konfiguration (Fig. 20b) mit spezieller(en) An- 
wendung(en), mittels.der Ladelogik (30) zu Beginn als 
Startkonfiguratlon in der Zeli-Matrbc (Fig. 2, Fig. 3) einge- 
steltt wird, 

c) durch eine Statemachine (45) oder einen (Comparator (48) 
die Beendigung der Durchfuhrung einer Anwendung einer 
oder mehrerer Zellen erkannt wird, 

d) durch die Erkennung eine Ruckmeldung an die Ladelogik 
(30) erfolgt die die Programmabarbeftung des Konfigura- 
tions programme mit einer anderen Teilfotge (Fig. 21b, 
Fig. 22b) fortsetzt welche nur Zellen umkonfiguriert, also 
neu ersteilt, die die Durchfuhrung ihrer Funktion fur die 
aktuelie Anwendung bereits beendet haben oder nicht 
bendtigt werden, so daS die Abarbeitung der Datenstrome 
der an der aktueiien Konfiguration noch beteiligten, parallel 
(jlB. Register 41, 42) oder gepfpelined (z.B. Fig. 22a, 
Summierer 141 und Mulu'plizierer 14S) arbeitenden Zellen, 
die sich noch in der Durchfuhrung ihrer Anwendung befin- 
den, nicht gestort wird. 
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Beschreibung weUs Iogisch gleicher und struktureU identisch angeord- 

r.. . „ - , . t . , neter ZeUen gezeigt, sowie dessen interne Busstruktur, 

Die vorhegende Erfindung bezieht sich auf Verfahren die zur Erleichterung der Programmierung auBerst ho- 

zum Betneb emer Datenverarbeitungseinrichtung, d a mogen ist Grundsatzlich ist es denkbar innerhalb eines 

einer Hardwareeinheit zur logischen und arithmetic 5 DatenfluBprozessors Zellen mit verschiedenen ZeUogi- 

schen Mampulauon (Verknupfung) von in binarer Form ken und ZeUstrukturen unterzubringen, urn so die Lei- 

vorhegendenDatenanformationen). stungsfahigkeit zu erhohen, indem zum Beispiel fur 

Nach dem Stand der Techmk smd gewdhnhche Mi- Speicheransteuerungen (Businterf ace) andere Zellen als 

kroprozessoren (z. R Intel 80 x 86) bereits bekannL Die- fur arithmetische Operationen (Arithmetisch/logische 
se sind aus fest vorgegebenen Einheiten ausgestaltet to Einheiten (ALUs) existierea Insbesondere kann fur neu- 

und verarbeiten Programme durch das Auskodieren ronale Netze eme gewisse SpeziaUsierung von VorteU 

von Befehlen (Microcode) und dadurch bestimmte Regi- seia Den ZeUen ist eine Udelogik zugeordnet, uber die 

stemanipulauonen. die ZeUen je fur sich und gegebenenfalls gruppenweise 

Ebenfalls bekannt smd sogenannte FPGAs (z. B. aus in sogenannte MACROs (Menge von Zellen, welche zu- 
US-Patent 4,870302) die zum Aufbau von komplexen 15 sammen eine definierte Aufgabe ldsen) zusammenge- 

togischen Strukturen verwendet werdea Auf der faBt so programmierbar sind, daB einerseits beliebige 

GruncHage dieser Bausteme lassen sich Rechenwerke logische Funktionen, andererseits aber auch die Ver- 

wie Addierer, Muluplizierer, eta innerhalb des Baustei- knQpfung der ZeUen untereinander in weiten Bereichen 

nes fur die Durchfuhrung einer bestimmten Funktion verifizierbar sind. Dies wird erreicht indem jeder einzel- 
oder Aufgabe konfiguneren. Durch die direkte Imple- 2 o nen ZeUe ein gewisser Speicherplatz zur Verffigung 

mentierung emer Funktion in die entsprechenden Lo- steht, in dem die Konfigurationsdaten abgelegt sind An- 

gucbausteme konnen FPGAs Funktionen oftmals hand dieser Daten werden Multiplexer oder Transisto- 

schneUer ausfuhren als Mikroprozessoren. Obwohl die ren in der ZeBe beschaltet urn die jeweilige Zellfunktion 

bekannten Bausteine aufgrund ihrer SRAM-Architek- zugewahrleisten(sieheF1g. 12). 

tur bereits umkonfiguriert werden konnen, existiertkein 25 Mit anderen als im Patentanspruch 1 gebrauchten 

Mechamsmus, urn die Umkonfiguration schneU und dy- Worten besteht der Kern der voriiegenden Erfindung 

namisch wahrend der Laufzeit durchfOhren zu kdnnen, darin, eine Methode fur einen DatenfluBprozessor vor- 

msbesondere, wenn nur Teiibereiche des Bausteines mit zuschlagen, der zellular aufgebaut ist und dessen Zellen 

emer neuen Funktion konfiguriert werden soUen, wah- fiber eine Ladelogik im arithmetisch-logischen Sinne 

rend andere Teile des Baustemes ihre Aufgabe fortset- 30 quasi beUebig neu konfiguriert werden kdnnen. Dabei 

zen. Durch die fehlende Interaktion zwischen einer kon- ist es von SuBerster Notwendigkeit, daB die betreffen- 

figunerenden Einheit und dem FPGA an sich, scheiden den ZeUen einzeln und ohne Beeinflussung der ubrigen 

die Bausteme als funktional voUwertiger Ersatz fur Mi- Zellen oder gar einer Stillegung des gesamten Bausteins 

kroprozessoren aus. umkonfiguriert werden konnen. Ein DatenfluBprozes- 

Die der voriiegenden Erfindung zugrunde Uegende 35 sor gemaB dem voriiegenden Verfahren kann so wah- 

Aufgabe besteht darin, ein Verfahren zum Betrieb einer rend eines ersten Arbeitszyklusses als Addierer und 

Datenverarbeitungseinrichtung mit programmierbarer wahrend eines spateren Arbeitszyklusses als Multipli- 

und konfigunerbarer ZeU-Struktur - wobei eine ZeUe zierer "programmiertYgenutzt werden, wobei die An- 

afc em logisches Schaltelement ahnlich US 4^70302 zahl der fur die Addition beziehungsweise die MultipH- 

?h Tn°^ er eme besonders ausgestaltete Recheneinheit 40 kation erforderlichen ZeUen durchaus unterschiedlich 

(ALU) derimert 1st - bereitzustellen, das eine h6here sein kdnnen. Dabei bleibt die Plazierung der bereits 

ParaUeiitat der Verarbeitung und eine flexiblere Verar- geladenen und wahrend des Umladeprozesses nicht tan- 

beitung von Daten gewahrleistet gierten MACROs erhalten; der Udelogik beziehungs- 

Dabei wird beschneben, wie Bausteine, die aus einer weise dem Compiler obliegt es, das neu zu ladende MA- 

Vielzahl von zwei- oder mehrdimensionalen Zellstruk- 45 CRO innerhalb der freien ZeUen zu partitionieren (d h. 

turen aufgebaut smd, schneU und effizient nach Ablauf das zu ladende MACRO so zu zerlegen, daB es sich 

ernes Arbeitsschrittes oder Teflarbehsschrittes, durch optimal einfugen IaBt). Die Ablaufsteuerung des Pro- 

Interaktion zwischen dem Baustein und einer konfigu- gramms wird dabei von der Udelogik flbernommen, 

nerenden Bnheit, dynamisch neu konfiguriert werden, indem sie gemaB dem momentan ausgefOhrten Pro- 

ohnel^m3aufnochablaufendeArbeitsschrittezuha- 50 grammabschnitt die entsprechenden MACROs in den 

ben. Die Notwendigkeit einer Umkonfiguration, bzw. Baustein ladt, wobei der Ladevorgang von der spater 

das Ende ernes Arbeitsschrittes, kann gemaB dieses Ver- beschriebenen Synchronisationslogik mitgesteuert 

■fahrens automatisch erkarmt werdea Dadurch kann auf wird, indem sie den Zeitpunkt des Umladens festlegt 

Grundlage dieses Verfahrens ein voUwertiger Ersatz fur Daher entspricht ein DFP gemaB dem beschriebenem 

Mu^prozessorengeschaffenwerdea 55 Verfahren nicht der bekannten von-Neumann-Archi- 

Ein VorteU der vorhegenden Erfindung Uegt daria tektur, da die Daten- und Programmspeicher getrennt 

daB die beschnebene Methode eine Ober einen weiten sind. Dies bedeutet jedoch gleichzeiug eine h6here Si- 

Raum skaherbare ParaUeUtat ermdgUcht Hierbei wird cherheit, da fehlerhafte Programme keinen CODE, son- 

eine Basis zum schnellen und flexiblen Aufbau von zum dern ledigHch DATEN zerstoren kdnnea 

^lspiel neuronalen 1 Strukturen geschaffea wie sie bis so Um dem DatenfluBprozessor eine arbeitsf ahige 

dato ledighch mit erhebuchem Aufwand durch Software Struktur zu gebea werden einige ZeUen, und zwar unter 

simuhert werden kdnnea anderem die Eingabe-/Ausgabefunktionen (I/O) und 

Diese Aufgabe wird durch die im Patentanspruch I Speichermanagementfunktionen (I/O) vor dem Uden 

angegebenen Merkmale beziehungsweise Verfahren- der Programme geladen und bleiben fur gewohnUch 

scnntte gelost Zur VerdeutUchung der Verfahrens- 55 wahrend der gesamten Uufzeit konstant 

schritte wird beispielsweise ein mtegrierter Schaltkreis Dies ist erforderUch um den DatenfluBprozessor an 

(Chip; mit emer Vielzahl insbesondere orthogonal zu- seine Hardwareumgebung anzupassea Die ubrigen Zel- 

emander angeordneter ZeUen mit je einer Mehrzahl je- len werden zu sogenannten MACROs zusammengefaBt 
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und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinfiussung von Nachbarzeilen oder anderen 
MACROs umkonfiguriert werdea Dazu sind die Zellen 
einzeln und direkt adressierbar. 

Um die Umstrukturierung (das Umladen/Umkonfigu- 5 
rieren) der Zellen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer alten 
Tatigkeit fertig sind — eine Synchronisationsschaltung 
als MACRO auf dem DatenfluBprozessor unterge- 10 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet Hierzu kann eventuel! eine Modifi- 
kation der gewdhnlichen MACROs von Ndten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verfugung stellen mussea 15 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewOhnlich, daB einzelne MA- 
CROS ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 20 
bedingung einer Schleife bedeuten kann. Diu das Pro 
gramra wird an einer anderen Stelle fortgesetzt und die 
die Zustandsinformation absendenden MACROs kdn- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 25 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinformationen durch eine Logik (zum 
Beispiel einen (Prioritats- Arbiter) erfolgen. Eine derarti- 
ge — einfache — . Logik ist in Fig. 19 gezeichnet Die 
Logik besitzt sieben Eingangssignale durch die die sie- 30 
ben MACROs ihre Zustandsinformation abgebea In 
diesem Fall soil 0 fur "in Arbeit" und 1 far "fertig^ stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik gefuhrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 35 
gange an, so Fradet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiel Sync6 als 1 10 dargesteDt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedient, seine Aufgabe beendet hat. Liegen gleichzeitig 
mehrere Zustandsinformationen am Eingang an, so gibt 40 
die Synchronisationsschaltung das Signal mit der hdch- 
sten Prioritat an die Ladelogik weiter; liegen zum Bei- 
spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- 
nistaions-Schaltung zunachst Sync6 an die Ladelogik 
weiter. Nachdem die entsprechenden MACROs umge- 45 
laden sind und somit Sync6 nicht mehr anliegt wird 
Sync4 weitergeleitet usw. Zur Verdeutlichung dieses 
Prinzips kann zum Beispiel der Standard-TTL-Baustein 
74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 50 
weils optimal und gegebenenfalls dynamisch auf eine zu 
Idsende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe Vorteil verbunden, daB neue Normen 
oder dergleichen einzig und allein durch Umladen des 
DatenfluBprozessors umgesetzt werden kdnnen und 55 
nicht — wie bisher — einen Austausch mit entsprechen- 
dem Anfall von Elektronikschrott bedingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhdhung des 
Parallelisierungsgrades, der Rechenleistung, so wie der 50 
NetzgrdBe in neuronalen Netzen fuhrt Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den EhWAusgangs-Pins (10- Pins) der DatenfluB- 
prozessoren, um mdglichst keine Einschrankungen auf 
die Programme zu haben. $5 

In Fig. 4 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). PrinzipieU sind da- 
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mit zwei Kaskadierungsmethoden denkbar: 

a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
Beispiel zwei IO-Pins pro Kantenzelle und vier IO- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
gen ist (Globale Verbindungen zwischen mehreren 
Zellen, fur gewohnlich zwischen einer kompletten 
Zellenreihe oder -spalte - siehe Fig. 1 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen)i 
Fig. 6a zeigt den moglichen Aufbau innerhalb eines 
DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 

b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der bendtigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 
serem Beispiel (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwdlf IO-Pins pro Eckzelle. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 

Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen nicht ausreicht 
da bekanntlich jede Verbindung nur von einem Signal 
genutzt werden kann. Um diesen Effekt zu niinimieren, 
kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechen. Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 
sofern der Treiber in Tristate ist, ansonsten wird ein 
Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
ber der einzelnen globalen Leitungen auch einzeln an- 
gesteuert werden konnen, d. h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
geschleift Somit kdnnen auf einer globalen Verbindung 
durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsachlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFig. 18). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik kdnnen sogenannte 
Shared-Memories eingesetzt werdea So kdnnen zum 
Beispiel Programme von einer Festplatte, die im IO-Be- 
reich eines DatenfluBprozessors Uegt zur Ladelogik 
durchgereicht werden, indem die DatenfluBprozessoren 
die Daten von der Platte in den Shared-Memory schrei- 
ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherber eich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verknOpft werden sollen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
sprilche. 

Erne besondere Verwendung eines DatenfluBprozes- 
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sors gemiB dem beschriebenem Verfahrens ist darin zu gestellt sind (tatsachlich bedeutet eine gezeichnete Ver- 
sehen, da8 er in Verbindung mit geeigneten EhWAusga- bindung eine Mehrzahl von Leitungen); 
be-Einheiten einerseits und einem Speicher andererseits Fig, 5 die durch die Kaskadierung erreichte Homoge- 
die Basis fQr einen kompletten (komplexen) Rechner nitat; 

bilden kann. Dabei kann ein GroBteil der IO-Funktio- 5 Fig. 6a die Struktur der E/A-Zellen, wobei die globa- 

nen als MACROs auf dem DatenfluBprozessor imple- lenVerbindungennichtherausgeffihrtwerden, 

mentiert werden und es brauchen momentan lediglich Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 

Spezialbausteine (Ethernet-Treiber, VRAMS. . .) extern ausgefuhrten globalen Verbindungen; 

zugefugtzu werden. Bei einer Normanderung oder Ver- Fig. 7a die aus Fig. 6a resultierende Kaskadierung, 

besserung muB dann wie bereits angedeutet nur das 10 wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 

MACRO softwareseitig angepaBt werden; ein Eingriff renden Treiberzellen der kaskadierten Bausteine (ver- 

in die Hardware ist nicht notwendig. Es bietet sich hier gleiche hierzu Fig. 4) gezeichnet sind; 

an, einen IO-(Eingabe-/Ausgabe-) Stecker festzulegen, Fig. 7b die aus Fig. 6b resultierende Kaskadierung, 

uber welchen dann die Zusatzbausteine angeschiossen wobei eine Eckzelle, sowie die zwei mit ihr koramunizie- 

werden konnen. I5 renden Treiberzellen der kaskadierten Bausteine (ver- 

Fig. 16 zeigt den stark vereinfachten Aufbau eines gleiche hierzu Fig. 4) gezeichnet sind; 
heute ublichen Rechners. Durch den Einsatz eines DFP- Fig. 8 einen bei spiel haften Aufbau einer Zelle mit 
Bausteins k6nnen erhebliche Teile eingespart werden MultiplexernzurAuswahlder jeweiligen logischen Bau- 
; (Fig. 17), wobei die entsprechenden herkSmmlichen steine; 

Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 20 Fig. 9 ein Schaltsymbol fur einen 8-Bit- Addierer; 
tur- und Videointerface, sowie der parallelen und seriel- Fig. 10 ein Schaltsymbol fur einen aus acht t-Bit-Ad- 
len Schnittstellen) als MACROs in die kaskadierten dierernbestehenden8-Bit-AddierernachFig.9; 
DFPs abgelegt werden. Nur die durch einen DFP nicht Fig. 1 1 eine logische Struktur eines 1-Bit-Addierers 
nachbildbaren Teile wie Speicher und Leitungstreiber entsprechend Fig. 10; 

mit nicht TTL-Pegeln oder fur hohe Lasten mussen ex- 25 Fig. 12 eine Zellenstruktur des 1-Bit-Addierers ent- 
tern zugeschaltet werden. Durch die Verwendung des sprechend Fig. 11; 

DFPs ist eine gunstige Produktion gegeben, da ein und Fig. 13 einen der Zellenstruktur nach Fig. 9 entspre- 
derselbe Baustein sehr haufig verwendet wird, das Lay- chend aufgebauten 8-Bit-Addierer; 
out der Platine ist durch die homogene Veraetzung ent- Fig. 14 ein erstes AusfUhrungsbeispiel einer Mehrzahl 
sprechend einfach. Zudem wird der Aufbau des Rech- 30 miteinander zu einem Rechenwerk gekoppeher inte- 
ners durch die Ladelogik bestimmt, die hier fur gewdhn- grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3; 
lich nur zu Beginn der Verarbeitung (nach einem Reset) Fig. 15 ein zweites AusfQhrungsbeispiel einer Mehr- 
das DFP-Array ladt, wodurch eine gunstige Fehlerkor- zahl miteinander zu einem Rechenwerk gekoppeher in- 
rektur- und Erweiterungsmoglichkeit gegeben ist Ein tegrierter Schaltkreise (DatenfluBprozessor) nach 
derartiger Rechner kann insbesondere mehrere ver- 35 Fig. 3; 

schiedene Rechnerstrukturen simulieren, indem einfach Fig. 16 den stark schematisierten Aufbau eines her- 
der Aufbau des zu simulierenden Rechners in das DFP- kommlichen Rechners; 

Array geladen wird Zu bemerken ist, daB hierbei der Fig. 17 den mdglichen Aufbau desselben Rechners 
DFP nicht in seiner Funktion als DFP arbeitet sondern mit Hilfe eines Arrays aus kaskadierten DFPs; 
lediglich ein hochkomplexes und frei programmierbares 40 Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
Zellarray zur VerfOgung stellt, sich hierbei jedoch von tungs-)Treibem eines DFPs. 

herkommlichen Bausteinen in seiner besonderen guten Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Kaskadierbarkeit unterscheidet Baustein 74148 ausgefuhrte Synchronisationslogik; 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist Fig. 20a, b, c ein AusfOhrungsbeispiel eines MACRO 
der Aufbau grofier neuronaler Netze. Sein besonderer 45 zur Addition zweier Zahlenreihen; 
Vorzugliegt hierbei in seiner hohen Gatterdichte, seiner Fig. 21a eine Multiplikationsschaltung (vergleiche 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- Fig. 20); 

, genitat Ein Lernvorgang, der eine Anderung einzelner Fig. 21b die interne Struktur des DFPs nach dem La- 
axiomatischer Verbindungen beziehungsweise einzel- den (vergleiche Fig. 20b); 

ner Zellfunktionen beinhaltet ist auf ublichen Baustei- 50 Fig. 21c die Arbeitsweise des DFPs im Speicher, so- 
nen ebenso schlecht durchfOhrbar, wie der Aufbau gro- wie die ZustSnde der Zahler 47, 49; 
^er homogener und gleichzeitig flexibler Zellstrukturea Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
T)is dynamische Umkonfigurierbarkeit ermdglicht erst- dierer aus Fig. 20 und der Muluplizierer aus Fig. 21 zur 
maiig die optimale Simulation von Lernvorgangen. Steigerung der Rechenleistung hintereinander geschal- 

Die vorliegende Erfindung wird im folgenden anhand 55 tetsind; 
der weiteren Figuren naher erlautert Insgesamt zeigen In Fig. 9 ist ein Schaltsymbol eines 8-Bit-Addierers dar- 

Fig. 1 ein aus vier Zellen bestehendes unprogram- gestellt Das Schaltsymbol besteht aus einem quadrati- 
miertes SUBMACRO X (analog einem 1 -Bit- Addierer schen Baustein 1 mit acht Eingangen A 0. . .7 fQr ein 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- erstes Datenwort A und acht Eingangen B 0. . .7 fur ein 
derlichen Leitungsanschlussen; eo zweites (zu addierendes) Datenwort B. Die jeweils acht 

Fig. 2 einen Teilausschnitt eines integrierten Schalt- Eingange Ai, Bi (i « 0. . .7) werden erganzt durch einen 
kreises (Chip) mit einer Vielzahl von Zellen und einem weiteren Eingang Oein Ober den dem Baustein i gege- 
separierten SUBMACRO X gemSB Fig. 1 ; benenf alls ein Obertrag zugeleitet wird. Der Baustein 1 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer hat funktions- und bestimmungsgemaB acht Ausgange S 
Orthogonalstruktur einer quasi beliebigen Vielzahl von es 0. . J fur binaren Summanden und einen weiteren Aus- 
Zellen und einer extern zugeordneten Ladelogik; gang Oaus fur den gegebenenfalls bestehenden Ober- 

Fig.4 die Kaskadierung von vier DFPs, wobei die trag. 
Verbindung zwischen den IO-Pins nur schematisch dar- Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 
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als Anordnung sogenannter SUBMACROS dargestellt 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 
dierer 3 mit je einem Eingang fur die entsprechenden 
Bits des Datenworts und einem weiteren Eingang fur ein 
Obertragsbit Die 1-Bit-Addierer 3 weisen darfiberhin- 
aus einen Ausgang fur den Summanden und einen Aus- 
gang fur den Obertrag Oaus auf. 

In Fig. 11 ist die binare Logik eines 1-Bit-Addierers 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 



risch separiert, das letztlich als aus vier einem 1-Bit-Ad- 
dierer entsprechend programmierten ZeDen (10 gem&B 
Fig. 12) bestehende Untereinheit zu betrachten ist 

Das in Fig. 13 separierte SUBMACRO *X* ist in 
Fig. 1 als Teil eines integrierten Schaltkreises (Chip) 20 
gemeinsam mit Leitungs- und Datenanschlussen darge- 
stellt Das SUBMACRO *5C besteht aus den vier Zellen 
10 die entsprechend der orthogonalen Struktur je Seite 
vier Datenanschlusse (also insgesamt sechzehn Daten- 



dargestellt Analog zu Fig. 10 weist diese Schaltlogik je io anschlfisse je Zelle) aufweisen. Die Datenanschlusse 

einen Eingang A h B\ fur die konjugierten Bits der zu verbinden jeweils benachbarte Zeilen, so daB ersichtlich 

verkniipfenden Daten auf ; femer ist ein Eingang Oein wird, wie beispieisweise eine Dateneinheit von Zelle zu 

fur den Obertrag vorgesehen. Diese Bits werden den Zelle durchgeschleust wird Die Ansteuerung der Zellen 

dargestellten Verbindungen beziehungsweise Verknup- 10 erfolgt einersehs fiber sogenannte lokale Steuerun- 

fungen entsprechend in zwei ODER-Gliedern 5 und drei 15 gen, das sind lokale Leitungen, die mit alien Zellen ver- 

NAND-Gliedera 6 verknfipft, so daB am Ausgangsan- bunden sind, und andererseits uber sogenannte globale 

schluB Si und am Ausgang fur den Obertrag Oaus die Leitungen, d n. Leitungen, die uber den gesamten inte- 

einem Volladdierer entsprechenden Verknfipfungser- grierten S(±altkreis(Otip) 20 geffihrtsmd 

gebnisse(Si,Oaus)anstehea In Fig. 2 ist ein vergrdBerter Ausschnitt eines inte- 

Auf derGrandlagelogischundstrukturellidentischer 20 grierten Schaltkreises 20 dargestellt, der mit einem or- 



Zellen 10, deren einzelne logische Bausteine der auszu- 
ffihrenden Verknfipfungsfunktion entsprechend ver- 
schaltet werden, wird der 8-bit Addierer 2 in geeigneter 
Weise in die Zellstruktur implementiert Der Vorgang 
geschieht mittels der noch zu beschreibenden Ladelo- 
gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik 
nach Fig. 11 abgeleiteten Verknfipfungslogik fur einen 
1-Bit-Addierer sind je zwei ZeDen 10.1, 10.2 bezuglich 
der logischen Bausteine insoweit gleich, daB jeweils ein 



thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 2 
angedeutet kann so zum Beispiei eine Gruppe von vier 
Zellen 10 als SUBMACRO °X* ausgewahlt und dem 
1-Bit-Addierer entsprechend Fig. 12 gemaB program- 
miert beziehungsweise konfiguriert werden. 

Ein vollstandiger integrierter Schaltkreis gemaB dem 
beschriebenen Verfahren (DFP) 20 ist beispieisweise in 
Fig. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 
steht aus einer Vielzahl im orthogonalen Raster ange- 



ODER-GIied 5 und ein NAND-Glied 6 aktiviert sind 30 ordneter Zellen 10 und weist an seinen AuBenkanten 
Eine dritte Zelle 103 wird nur als Leitungszeile (Leiter- eine entsprechende Anzahl von LeitungsanschlQssen 
bahnzelle) benutzt und die vierte Zelle 10.4 ist bezuglich (Pins) auf, fiber die Signale, insbesondere Ansteuersi- 
des dritten NAND-Gliedes 6 aktiv geschaltet Das aus gnale und Daten zugefuhrt und weitergeleitet werden 
den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 konnen. In Fig. 3 ist wiederum das SUBMACRO "X" 
stent somitstellvertretend fur einen 1-Bit-Addierer, dh. 35 gemSB Fig. 13/Fig. 1 abgegrenzt; daruberhinaus sind 



ein 1-Bit-Addierer einer Datenverarbeitungseinrich- 
tung nach Art der vorliegenden Erfindung kann uber 
vier entsprechend programmierte (konfigurierte) Zellen 
10.1. . . . 10.4 verifiziert werden. (Der Vollstandigkeit 
halber soil angemerkt werden, daB die einzelnen Zellen 
ein erheblich umfangreicheres Netzwerk von logischen 
Bausteinen, sprich Verknfipfungsgliedern, und Invertern 
aufweist, die jeweils dem aktuellen Befehl der Ladelogik 
zufolge aktiv geschaltet werden konnen. Neben den lo- 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 
bindungsleitungen zwischen den jeweils benachbarten 
Bausteinen und zum Aufbau von zeilen- und spaltenwei- 
sen Busstrukturen zur Datenubertragung andererseits 
vorgesehen, so daB fiber eine entsprechende Program- 



40 



45 



auch weitere SUBMACROS separiert, die spezifischen 
Funktionen und Vernetzungen entsprechend zu Unte- 
reinheiten zusammengefaBt sind Dem integrierten 
Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
beziehungsweise fibergeordnet, fiber die der integrierte 
Schaltkreis 20 programmiert und konfiguriert wird Die 
Ladelogik 30 teOt letztlich dem integrierten Schaltkreis 
20 mit, wie er arithmetisch-logisch zu arbeiten hat 

Anhand von Fig. 14 beziehungsweise Kg. 15 soil ira 
folgenden eine Rechnerstruktur beschrieben werden, 
die auf den im vorstehenden definierten und erliuterten 
integrierten Schaltkreis 20 aufbaut 

GemaB dem in Fig. 14 dargestellten ersten Ausfuh- 
rungsbeispiel ist — analog zur Anordnung der Zellen — 



mierung seitens der Ladelogik quasi beliebige logische 50 im Orthogonalraster eine Mehrzahl von integrierten 



Verknupfungsstrukturen implementiert werden kon- 
nen). 

Der Vollstandigkeit halber ist in Fig. 13 der Zellen- 
aufbau eines 8-Bit- Addierers in seiner Gesamtheit dar- 
gestellt Die in Fig. 13 gezeigte Struktur entspricht inso- 55 
weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als 
SUBMACROS 3 dargestellten 1-Bit-Addierer jeweils 
durch eine vier-zellige Einheit 10.1. . . . 10.4 ersetzt sind 
Bezogen auf einen DatenfluBprozessor gemaB des be- 
schriebenen Verfahrens bedeutet dies, daB zweiunddrei- 60 zwei separierten Speichern, zusammengesetzt aus je- 
Big Zellen der zur Verfugung stehenden Gesamtheit weils RAM, ROM sowie einem Dual-Ported RAM als 
von Zellen einer zellular mit logisch identischera Layout shared memory zu der Ladelogik geschaltet, besteht, die 
gefertigten Schaltungsplatine seitens der Ladelogik so gleichermaBen als Schreib-Lese-Speicher oder auch nur 
angesteuert und konfiguriert beziehungsweise pro- als Lese-Speicher realisiert sein kdnnen. Der soweit be- 
grammiert werden, daB diese zweiunddreiBig Zellen ein 65 schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
8-Bit-Addierer bilden. beziehungsweise fibergeordnet, mittels der die inte- 

In der Darstellung nach Fig. 13 ist fiber eine strich- grierten Schaltkreise (DatenfluBprozessor) 20 program- 
punktierte Umrahmung ein SUBMACRO "X" zeichne- miert und konfiguriert und vemetzt werden. 



Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
uber lokale BUS-Leitungen 21 miteinander gekoppeit 
beziehungsweise vernetzt sind Die — beispieisweise 
aus sechzehn integrierten Schaltkreisen 20 bestehende 
— Rechnerstruktur weist Em-/Ausgangsleitungen IO 
auf, fiber die der Rechner quasi mit der AuBenweh in 
Verbindung stent, d h. korrespondiert Der Rechner ge- 
maB Fig. 14 weist ferner einen Speicher 22 auf, der dem 
dargestellten Ausfuhrungsbeispiel entsprechend aus 
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Die Ladelogik 30 baut beispielsweise auf einem 
Transputer 31, d h. einem Prozessor mit mikrocodier- 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 
zugeordnet ist Die Verbindung zwischen dem Transpu- 
ter 31 und dem DatenfluBprozessor basiert auf einer 5 
Schnittstelle 33 fur die sogenannten Ladedaten, d. h. die 
Daten die den DatenfluBprozessor aufgabenspezifisch 
programmieren und konfigurieren und einer Schnitt- 
stelle 34 fur den bereits genannten Rechnerspeicher 22, 
d. h. den Shared-Memory-Speicher. 10 

Die in Fig, 14 dargestellte Struktur stelit so einen 
kompletten Rechner dar, der fiber die Ladelogik 30 je- 
weils fall- beziehungsweise aufgabenspezifisch pro- 
grammiert und konfiguriert werden kann. Der Vollstan- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 15 
dung mit der Ladelogik 30 uber Pfeile angedeutet — 
mehrere dieser Rechner vernetzt, d. h. miteinander ge- 
koppelt werden konnen. 

Ein weiteres AusfQhrungsbeispiel einer Rechner- 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 20 
Fig* 14 sind dabei neben den lokalen BUS-Leitungen 
zwischen den benachbarten integrierten Schaltkreisen 
20 noch flbergeordnete zentrale BUS-Leitungen 23 vor- 
gesehen, urn zum Beispiel spezifische Ein- beziehungs- 
weise Ausgangsprobleme Idsen zu konnen. Auch der 25 
Speicher 22 (Shared-Memory) ist uber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- 
bunden, und zwar wie dargestellt jeweils mit Gruppen 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 
stellte Rechnerstruktur weist die gleiche Ladelogik 30 30 
auf, wie sie anhand von Fig. 14 erlautert wurde. 

In Verbindung mit Fig. 20a soli eine aus erfindungsge- 
rnHBen DatenfluBprozessoren aufgebaute Additions- 
schaltung erlautert werden. Ausgegangen wird von zwei 
Zahlenreihen A n und B n fur samtliche n zwischen 0 und 35 
9; die Aufgabe besteht darin, die Summe Q = Ai + Bi 
zu bilden, wobei der Index i die Werte 0 <= n < 9 
annehmen kann. 

Bezugnehmend auf die Darstellung nach Fig. 20a ist 
die Zahlenreihe An in einem ersten Speicher RAMI 40 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse 1000 h; die Zahlenreihe Bn ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe C n wird in den RAMI eingeschrieben und 
zwar unter der Adresse lOOah. 45 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung freigegebe- 
nen Taktzyklen hochzahlt Dies soil im Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROs ohne Beeinflussung der an der Umkonfigurie- 50 
rung nicht beteiligten KfACROs dienen. 

Fig. 20a zeigt zunachst die eigentliche Additions- 
schaltung 40, die aus einem ersten Register 41 zur Auf- 
nahme der Zahlenreihe A n und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe B n besteht Den bei- 55 
den Registern 41/42 ist ein 8-Bit- Addierer entsprechend 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet 
Der Ausgang des MACRO 1 fuhrt aber eine Treiber- 
schaltung 43 zurfick zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Additionsschaltung 60 
40 erfolgt ttber eine von einem Taktgenerator T ange- 
steuerte Zustandsmaschine (STATEMACHINE) 45, die 
mit den Registern 41, 42 und der Treiberschaltung 43 
verbunden ist 

Die Additionsschaltung 40 wird funktional durch eine 65 
AdreBschaltung 46 zur Generierung der AdreBdaten fQr 
die abzuspeichemden Additionsergebnisse erganzt Die 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs 



1 (gemaB Fig. 9) zur Bildung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
einen Eingang werden die zu verknupfenden Adressen 
f Or An, Bn, Cn zugefuhrt Diese Adressen werden mit den 
Ausgangssignalen eines Zahlers 47 addiert und mit der 
Statemachine 45 so verknupf t, daB am Ausgang die neue 
Zieladresse ansteht Der Zahler 47 und der Komparator 
48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
die richtigen Summanden verknfipft werden und daB 
jeweils am Ende der Zahlenreihen, d. h. bei n » 9 abge- 
brochen wird. Ist die Addition vollendet, so wird in der 
Zustandsmaschine 45 ein STOP-Signal generiert und die 
Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
gnal als Eingangssignal fur eine Synchronisations-Schal- 
tung verwenden werden, indem die Synchronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren" gemaB dem nachfolgend be- 
schriebenen ML1 Programm beendet ist und die MA- 
CROS somit durch Neue ersetzt werden konnen (zum 
Beispiel konnte STOP das Signal Sync5 sein). 

Der Zeitablauf in der 45 (STATEMACHINE) laBt 
sich dabei wie folgt darstellen, wobei noch anzumerken 
ist, daB in der Zustandsmaschine 45 eine Verzdgemngs- 
zeit T (in Form von Taktzyklen) zwischen der AdreBge- 
nerierung und dem Datenerhalt implementiert ist: 

— Im Zyklus 1 wird jeweils der Zahler 47 um 1 
erhoht und im Komparator 48 wird gepruft, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 
den die Adressen fur A, B, C berechnet; 

— im Zyklus (T + 1) werden die Summanden A, B 
ausgelesen und addiert; 

— im Zyklus (T + 2) wird die Summe C abgespei- 
chert 

Mit anderen Worten heiBt dies, daB die Operations- 
schleife und die eigentliche Addition gerade (T + 2) 
Taktzyklen erfordert Im allgemeinen sind fur T 2.. 3 
Takte erforderlich, so daB verglichen mit den herkdmm- 
lichen Prozessoren (CPU), die im allgemeinen 50 bis 
mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 
che Rechenzeit-Reduzierung moglich wird 

Die anhand von Fig. 20 aufgezeigte Konfiguration 
soli im folgenden uber eine hypothetische MACRO- 
Sprache ML1 nochmals erlautert werden: 
Es existieren die Zahlenreihen A n und B n 

n:0<=n< =9 
Es sollen die Summen Q * Ai + Bi mit i e N gebildet 
werden. 
const n = 9; 

array A[n] in RAM[1] at 1000 h; 
array Bf n] in RAM[2] at OdfaOh; 
array C[n] in RAM[1] at lOOah; 
fori = 0 ton with (AfiJBplCtfD 
AI; 

C - AI - A + B; 
next; 

RAM[1] ist der 1. Speicherbiock 
RAM[2] ist der 2 Speicherbiock 
at folgt die Basisadresse der Arrays 
for ist der Schleif enbeginn 
next ist das Schleif enende 

with ( ) folgen die Variablen, deren Adressen durch die 

Zalilvariable i bestimmt werden 

T folgt die Verzdgerungszeit fflr eine Statemachine in 

Taktzyklen 

Das Tuning der Zustandsmaschine (Statemachine) sieht 
demnach folgendermaBen aus: 



11 
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ZyklusAktivitat 

1 Zahler erhdhen, Vergleich auf > 9 (ja => Abbruch) 
und 

Adressen far A, B, C, berechnen 

T + 1 A, B, holen und addieren 5 
T + 2 Nach C speichern 

Das heiBt — wie bereits erwahnt — die Schleife und die 
Addition bendtigen gerade einmal T + 2 Taktzyklen. 

Fig. 20b zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem erfindungsgemaBen 10 
DFP. Die MACROs sind in ihrer etwaigen Lage und 
GrdUe eingezeichnet und mit den anhand von Fig. 20a 
eriauterten entspreehenden Nummern versehen. 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- 



gebildet werden. 
path D; 
const n « 9; 

array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
for i = 0 to n with (AflJ BfiJ Cp]) 
Al; 

D = Al « A + B; 
C = Al = DxB; 
next; 

path D definiert einen internen nicht aus den DFP 
herausgefflhrten Doppeipfad Die Operation bendtigt 
wegen einem zusatzlichen Al einen Taktzyklus mehr als 



tionen auf die RAM-B16cke 1 und 2: Die Summanden 15 vorher, ist insgesamt jedoch schneller als die beiden 

werden nacheinander in aufsteigender Reihenfolge aus obigen Programme in Folge ausgefuhrt, da zum einen 

den RAM-Bl6cken 1 und 2 ab Adresse 1000 h bezie- die Schleife nur einmal durchlaufen wird, zum zweiten 

hungsweise OdfaOh gelesen und in RAM-Block 1 ab nicht umgeladen wird 

Adresse lOOah gespeichert Zudem sind die Zahler 47 Prinzipiell konnte das Programm auch so formuliert 

und 49 gegeben, beide zahlen wahrend des Ablaufs der 20 werden: 



Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soil 
em neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet Die Umladung soli zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen A n und Bo, wobei An 
durch das Ergebnis C n des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

n:0« n < - 9 



constn=>9; 

array A[n] in RAM£l] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM(1] at lOOah 
25 fori -Oton with (AOJBpjqi]) 
Al; 

C = A2 = (A + B)xB; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 



Es sollen die Produkte Q = Ai x Bi mit i e N gebildet 30 tiplizierers zusammen kleiner als ein Taktzyklus, kann 



werden. 
const n = 9 

array A[n] in RAM[1] at lOOah 
array B[n] in RAM[2] at OdfaOh 
array qn] in RAM[1] at 1015 h 
for i 0 to n with (A[iJ BpJ Cp]) 
Al; 

C=>A1 — AxB; 
next. 

Die.;Beschreibung der einzelnen Befehle ist bereits 
bekannt, x symbolisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 21a beschrieben, 
Fig. 21b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 



die Operation (A + B)xB auch in einem Taktzyklus 
durchgefQhrt werden, was zu einer weiteren erhebli- 
chen Geschwindigkeitssteigerung fOhrt: 
const n => 9; 
35 array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array qn] in RAM[1] at lOOah 
f or i = 0 to n with (ApJ B[iJ C[i]) 
Al; 

40 C=, Al =(A+B)xB; 
next; 

Anhand von Fig. 8 soil ein einfaches Beispiel eines 
Zellenaufbaus erlautert werden. Die Zelle 10 umfaBt 
zum Beispiel ein UND-GIied 51, ein ODER-Glied 52, ein 



beachten ist die Gr6Be des Multiplizierers 2 in Vergleich 45 XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zu Addierer i aus Fig. 20b. In Fig. 21 c ist erneut die zeUe55.DieZeUe!0weistdaiiiberhmauseingangsseitig 
Auswirkung der Funktion auf den Speicher aufgezeigt, zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
Zahler 47 zahlt erneut von 0 bis 9, d h. er wird beim der Zelle entsprechend Fig. l)zum Beispiel je sechzehn 
Nachladen der MACROs zurflckgesetzt EingangsanschlQssen INI, IN2 auf. Ober diesen 

Besonders zu beachten ist der Zahler 49. Angenom- 50 (16 : 1 ^Multiplexer 56/57 werden jeweils die den ge- 



mea das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, d h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
fOhrt nun dazu, daB der Zahler wahrend des Programm- 
ablaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wurde der Zahler er- 
neut von 0 auf 9 lauf en, da er zurflckgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die eo 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefuhrt 
werden, also die Operation: 

Es existieren die Zahlenreihen A n und Bn, wobei A n 



nannten logischen Gliedern UND, ODER, XOR 51. . J53 
zuzuf uhrenden Daten ausgewahit Diese logischen Glie- 
der sind ausgangsseitig mit einem (3 : 1)-Multiplexer 58 
gekoppelt, der seinerseits mit dem Eingang des Inver- 
55 ters 54, einem Eingang der Registerzelle 55 und einem 
weiteren (3 : 16)-Multiplexer 59 gekoppelt ist Der letzt- 
genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 
des Inverters 54 und einem Ausgang der Registerzelle 
55 verbunden und gibt das Ausgangssignal OUT ab. 

Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset- Eingang R und einem 
Takteingang gekoppelt ist 

Dem im vorstehenden eriauterten Zellenaufbau, d h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 



durch das Ergebnis yon Cn des vorher ausgefuhrten 65 mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 

Programms gegeben ist: diese den gewfinschten Funktionen entsprechend an- 

n:0«n< =»9 steuert 

Es sollen die Produkte Q = (Ai-hBi)xBi mit i € N SoUen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise "FONP entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 5 
Soil zum Beispiel eine NAND-VerknOpfung durchge- 
filhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung mit programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zellmatrix aus einer Vielzahl 
orthogonal zueinander angeordneter, homogen 
strukturierter Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei program- 
mierbar sind, enthalt, dadurch gekennzeichnet, 20 
daB 

a) ein Konfigurationsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zelnen Zellen angeben, so daB sich aus einer 25 
Teil folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfigurationinderZell-Matrix(Fig.2,Fig.3) 35 
eingestellt wird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
ftthrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Erkennung eine Ruckmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 45 
so neu erstellt, die die DurchfOhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht bendtigt werden, so 
daB die Abarbeitung der Datenstrome der an 
der aktuellen Konfiguration noch beteiligten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 
(z. B. Fig. 22a, Summierer 141 und Multiplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der DurchfQhrung ihrer Anwendung befinden, 
nicht gestdrt wird. 55 

Z Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z. a Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, 60 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge Ober eine Rflckmeldung 
an die Ladelogik sicherstellt wird. 
3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der AnsprQche 1 oder 65 

2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhangig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 
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RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Fig. 14, Fig. 15; 10) ausgegeben 
wird. 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der AnsprQche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltern (Fig. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan- 
gige Abschnitte aufgeteilt werden konnen. 
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